• Vezető: Dr. Ligeti Balázs
  • Tagok: Bodnár Babett, Filyó Bendegúz, Juhász János, Juhász Judit, Krizsán Dániel, Réti Márton
  • Kapcsolat: ligeti.balazs@itk.ppke.hu
  • Kutatócsoportunk nagyméretű genomikai és evolúciós kontextust figyelembe vevő neurális hálózatokkal és szekvenciareprezentációkkal foglalkozik. A kvantitatív biológia egyik alapvető kérdése, hogy miként fedezhetünk fel új mintázatokat és struktúrákat a biológiai adatokban, így lehetővé tenni olyan komplex szerveződések modellezését és vizsgálatát, mint a mikrobiom. Legújabb kutatásaink a mikrobiomot jellemző összetett kapcsolatok, például a baktérium-fág kölcsönhatások megértésére összpontosítanak. A fágok, amelyek a baktériumok vírusai, befolyásolják a mikrobiom szerkezetét, terápiaként és biomarkerként is szolgálhatnak.Ehhez hasonló bioinformatikai feladatok megoldására terveztünk és implementáltunk egy genomikai nyelvmodellt, a ProkBERT-et (Ligeti et al. 2024). A ProkBERT egy újrafelhasználható, neurális hálózat alapú szekvencia reprezentációt biztosít, amely a mikrobiommal kapcsolatos osztályozási, regressziós vagy klaszterezési feladatokra alkalmazható. A megközelítés fő előnye, hogy a modell közvetlenül a nukleotidszekvencián dolgozik, szemben a hagyományos gépi tanulási módszerekkel, amelyekhez bonyolult bioinformatikai pipeline-okkal létrehozott tabuláris adatokra van szükség. A modell adaptálható új problémák megoldására (transfer-learning), és jó általánosítási képességekkel rendelkezik, pl. Pontosan osztályoz számára ismeretlen, a tanulás során nem látott mintákat is. Emellett kompakt és gyors,, ugyanakkor számítási szempontból hatékony.

i. ábra) A ProkBERT bemenete nyers nukleotidszekvencia.  A modell mikrobiális szekvenciaadatok (baktériumok, vírusok, archeák és gombák) nagy korpuszán lett előtanítva. Az újrafelhasználható, általános szekvenciareprezentációk biztosításával lehetővé teszi a transzfertanulást. A ProkBERT ideális osztályozási, klaszterezési és regressziós problémák megoldására.ii. ábra) Az ESKAPE kórokozók különböző szekvenciajellemzőinek 2D-s ábrázolása. A szekvenciák a genomi struktúra szerint klasztereződnek: kódoló (kék) vs. nem kódoló (narancssárga) régiók (ii/a. ábra), valamint taxonómiai struktúra szerint (ii/b. ábra) is. Annak ellenére, hogy a modell a tanulása során nem fért hozzá leíró információkhoz (annotáció), a tanult vektorreprezentációk kapcsolatot mutatnak a genomszerkezettel.